Cuándo y por qué funciona la exploración aleatoria en bandidos lineales Exploración aleatoria (Thompson sampling) logra arrepentimiento óptimo en bandidos lineales con espacios convexos. ¡Un avance clave! 2026-06-04 · 2 min